Ad Hoc团队合作问题描述了代理商必须与以前看不见的代理商合作以实现共同目标的情况。对于在这些场景中成功的代理商,它必须具有合适的合作技能。可以通过使用域知识来设计代理人的行为来实现协作技巧的合作技能。但是,在复杂的域中,可能无法使用域知识。因此,值得探索如何直接从数据中学习合作技能。在这项工作中,我们在临时团队合作问题的背景下申请元加强学习(Meta-RL)制定。我们的经验结果表明,这种方法可以在两个合作环境中产生具有不同合作环境的强大合作社:社会合议和语言解释。(这是扩展抽象版的全文。)
translated by 谷歌翻译
基于电动机图像(MI)的脑电脑界面(BCIS)允许通过解码神经生理现象来控制几种应用,这些现象通常通过使用非侵入性技术被脑电图(EEG)记录。尽管在基于MI的BCI的进展方面很大,但脑电图有特定于受试者和各种变化随时间。这些问题指出了提高分类绩效的重大挑战,特别是在独立的方式。为了克服这些挑战,我们提出了Min2Net,这是一个新的端到端多任务学习来解决这项任务。我们将深度度量学习集成到多任务AutoEncoder中,以从脑电图中学习紧凑且识别的潜在表示,并同时执行分类。这种方法降低了预处理的复杂性,导致EEG分类的显着性能改善。实验结果以本语独立的方式表明,MIN2Net优于最先进的技术,在SMR-BCI和OpenBMI数据集中分别实现了6.72%的F1分数提高,以及2.23%。我们证明MIN2NET在潜在代表中提高了歧视信息。本研究表明使用此模型的可能性和实用性为新用户开发基于MI的BCI应用,而无需校准。
translated by 谷歌翻译
Recent work in large language modeling (LLMs) has used fine-tuning to align outputs with the preferences of a prototypical user. This work assumes that human preferences are static and homogeneous across individuals, so that aligning to a a single "generic" user will confer more general alignment. Here, we embrace the heterogeneity of human preferences to consider a different challenge: how might a machine help people with diverse views find agreement? We fine-tune a 70 billion parameter LLM to generate statements that maximize the expected approval for a group of people with potentially diverse opinions. Human participants provide written opinions on thousands of questions touching on moral and political issues (e.g., "should we raise taxes on the rich?"), and rate the LLM's generated candidate consensus statements for agreement and quality. A reward model is then trained to predict individual preferences, enabling it to quantify and rank consensus statements in terms of their appeal to the overall group, defined according to different aggregation (social welfare) functions. The model produces consensus statements that are preferred by human users over those from prompted LLMs (>70%) and significantly outperforms a tight fine-tuned baseline that lacks the final ranking step. Further, our best model's consensus statements are preferred over the best human-generated opinions (>65%). We find that when we silently constructed consensus statements from only a subset of group members, those who were excluded were more likely to dissent, revealing the sensitivity of the consensus to individual contributions. These results highlight the potential to use LLMs to help groups of humans align their values with one another.
translated by 谷歌翻译
我们介绍了Sparrow,这是一个寻求信息的对话代理,与提示的语言模型基线相比,训练有素,更有帮助,正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型,以帮助人类评估者判断代理人的行为。首先,为了使我们的代理人更有帮助和无害,我们将良好对话的要求分解为代理人应遵循的自然语言规则,并分别向评估者询问每个规则。我们证明,这种崩溃使我们能够收集对代理行为的更多针对性的人类判断,并允许更有效的规则条件奖励模型。其次,我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题,麻雀提供的证据支持了78%的时间。比基线比基线更享受麻雀,同时对人类的对抗性探测更具弹性,在探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会遵守我们的规则,但它可以表现出分布偏见。
translated by 谷歌翻译
功能电刺激(FES)是一种通过低能电信号引起肌肉收缩的技术。 FES可以使四肢瘫痪。然而,关于如何应用FES实现所需运动的开放挑战仍然存在。人体的复杂性和肌肉反应的非平稳性引起了这一挑战。前者在执行逆动力学方面造成困难,而后者会导致控制性能在长期使用期间降解。在这里,我们通过数据驱动的方法参与挑战。具体而言,我们学会通过加强学习(RL)来控制FES,该学习可以自动自定义患者的刺激。但是,RL通常具有Markovian假设,而FES控制系统由于非平稳性而为非马克维亚。为了解决这个问题,我们使用经常性的神经网络来创建马尔可夫状态表示。我们将FES控制施加到RL问题中,并训练RL代理在模拟和现实世界中的不同环境中控制FES。结果表明,与PID控制器相比,我们的RL控制器可以长期保持控制性能,并具有更好的刺激特性。
translated by 谷歌翻译